【新機能】AWS Data PipelineですべてのAmazon RDSを簡単に指定できるようになりました
おはようございます、城内です。 最近急に寒くなり、寒暖差アレルギー的な鼻水とくしゃみが止まりません。。
ということで、今回はData Pipelineの新機能紹介です。 ※アップデートは先月発表されていましたが、諸々の事情がありまして・・・。
はじめに
タイトルをパッと見ると、「えっ、Data PipelineのデータソースにRDSを指定するのは前からできるけど・・・」という感じですが、ポイントは”すべてのRDSを簡単に”というところです。
つまりは、指定の仕方が変わったよということです。
試してみる
では、さっそくRDSからS3にテーブルデータをコピーするData Pipelineを作成してみたいと思います。RDSは、あえて変更点が分かり易いように、外部ドライバーが必要なOracle DB SE Oneでいきます。
Create Pipeline
このステップでは、特に変更はありません。
まだテンプレートも更新されていないようで、[Source]の項目で[Build using a template]からRDS関連のテンプレートを選択しても、従来の設定方法のままのようでしたので、[Build using Architect]を選択し、[Edit in Architect]ボタンをクリックします。
Architect
このステップでは、変わったポイントを中心に説明します。
まずは、[Add data node]ボタンをクリックし、データノードを追加します。 [Name]に任意の名前を入力し、[Type]は[SqlDataNode]を選択します。
次に、[Table]に対象のテーブル名を入力します。 そして、オプションの中から[Database]を選択します。
ここで、RDSを設定するためのオブジェクトが作成できます。
RDSの設定は、[Others]の項目で行います。ここが変わったポイントです!
[Type]で[RdsDatabase]が選択でき、[Rds Instance Id]でインスタンスIDを入力するだけで指定ができます。 従来は、Oracle DBやSQL Serverであれば別途ドライバーを用意し、かつ、[Connection String]で接続先のDBに合わせた接続文字列を指定する必要がありましたが、それがインスタンスIDとS3に格納したドライバーを指定するだけで済むようになりました。 (※この辺りは、アップデート前の状態をはっきり把握できていなかったため、今回の差分という点では若干曖昧です。。)
ということで、あとは[Jdbc Driver Jar Uri]と[Database Name]を追加しておきます。
と、変わったポイントは以上になります。
あとは、以下のような感じで設定してみてください。
Execution Details
実行結果は以下の通りです。
S3にもちゃんとファイルが出力されています。
さいごに
そんなに劇的なアップデートではないかもしれませんが、Data Pipelineも少しずつ進化しているんだぞ!ということでご紹介でした。